UTF-16 és una forma de codificació de caràcters UCS i Unicode utilitzant símbols de longitud variable. Es troba oficialment definit en l'annex C de la norma ISO/IEC 10646:2003. També està descrita en l'estàndard Unicode (versió 3.0 o superior).[1] És l'abreviara d'Unicode Transformation Format de 16-plans o més exactament, «UCS Transformation Format for 16 Plans of Group 00» segons la norma internacional ISO/IEC 10646.[2]
Te les característiques principals següents:
- És capaç de representar qualsevol caràcter Unicode.
- Utilitza símbols de longitud variable: 1 o 2 paraules de 16 bits per caràcter Unicode (2 o 4 bytes). La unitat d'informació és la paraula de 16 bits.
- Està optimitzat per a representar caràcters al pla bàsic multilingüe o BMP, caràcters en el rang U+0000 a O+FFFF. El BMP conté la gran majoria de caràcters i sistemes d'escriptura en ús en l'actualitat. Quan es limita al pla bàsic multilingüe, UTF-16 pot ser considerat una forma de codificació amb símbols de mida fixa (16 bits).
- No superposició: Els símbols d'una paraula (16 bits) utilitzen un subconjunt de valors que no es pot utilitzar en símbols de 2 paraules (32 bits).
- ↑ Es pot trobar al RFC 2781 de la IETF
- ↑ «ISO/IEC 10646» (en anglès). International Organization for Standardization. [Consulta: 2 febrer 2021].